Más allá de la confianza uniforme en tokens en RL para LLM CPPO mejora el razonamiento de LLM al reemplazar la confianza uniforme por divergencia de prefijo acumulativa. Mayor estabilidad y precisión. 2026-06-10 · 2 min